CHI 제곱 검정

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.25
조회수
3
버전
v1

CHI 제곱 검정

개요

CHI 제곱 검정(Chi-Square Test, 카이제곱 검정)은 통계학에서 범주형 변수(categorical variable) 간의 독립성 또는 관찰된 빈도와 기대 빈도 간의 차이를 평가하기 위해 널리 사용되는 비모수적(non-parametric) 가설 검정 방법입니다. 이 검정은 영국의 통계학자 카를 피어슨(Karl Pearson)이 1900년에 제안하여 피어슨의 카이제곱 검정(Pearson's Chi-Square Test)으로도 불립니다.

CHI 제곱 검정은 주로 다음과 같은 두 가지 목적에 사용됩니다:

  1. 적합도 검정(Goodness-of-fit test): 관찰된 빈도 분포가 기대되는 이론적 분포와 일치하는지 검정
  2. 독립성 검정(Test of independence): 두 범주형 변수가 서로 독립적인지 여부를 판단

이 검정은 빈도 데이터를 기반으로 하며, 정규성 가정이 필요 없어 다양한 사회과학, 의학, 마케팅 등 실제 현장에서 자주 활용됩니다.


검정의 원리와 수식

CHI 제곱 검정의 핵심은 관찰 빈도(observed frequency, $ O_i $)와 기대 빈도(expected frequency, $ E_i $) 간의 차이를 제곱하여 합산하는 것입니다. 이 값이 클수록 관찰값과 기대값의 차이가 크다는 의미이며, 통계적으로 유의미한 차이가 있다고 판단할 수 있습니다.

CHI 제곱 통계량 계산식

[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} ]

  • $ O_i $: i번째 범주에서 관찰된 빈도
  • $ E_i $: i번째 범주에서 기대되는 빈도
  • 합계는 모든 범주에 대해 수행됨

이 통계량은 자유도에 따라 카이제곱 분포(Chi-Square Distribution)를 따릅니다. 자유도는 검정의 종류에 따라 달라집니다.


검정의 종류

1. 적합도 검정 (Goodness-of-fit Test)

적합도 검정은 한 개의 범주형 변수에 대해, 관찰된 빈도가 특정 이론적 분포(예: 균일분포, 이항분포 등)와 일치하는지를 검정합니다.

예시

  • 주사위를 60번 던졌을 때, 각 눈이 10번씩 나와야 한다는 균일분포 가정을 검정
  • 특정 지역의 종교 분포가 전체 국가 평균과 일치하는지 확인

자유도

[ df = k - 1 ] - $ k $: 범주의 수


2. 독립성 검정 (Test of Independence)

독립성 검정은 두 개의 범주형 변수가 서로 독립적인지 여부를 판단하는 데 사용됩니다. 일반적으로 교차표(contingency table)를 사용하여 분석합니다.

예시

  • 성별과 선호 음료(커피 vs 차) 간의 관계가 있는지 검정
  • 흡연 여부와 폐 질환 발생 간의 연관성 평가

기대 빈도 계산

교차표에서 각 셀의 기대 빈도는 다음과 같이 계산됩니다:

[ E_{ij} = \frac{(\text{행 합계}_i) \times (\text{열 합계}_j)}{\text{전체 표본 수}} ]

자유도

[ df = (r - 1)(c - 1) ] - $ r $: 행의 수 - $ c $: 열의 수


검정 절차

CHI 제곱 검정은 다음과 같은 단계로 수행됩니다:

  1. 가설 설정
  2. 귀무가설 $ H_0 $: 관찰 빈도와 기대 빈도는 차이가 없다. (또는 두 변수는 독립이다.)
  3. 대립가설 $ H_1 $: 관찰 빈도와 기대 빈도는 차이가 있다. (또는 두 변수는 독립이 아니다.)

  4. 유의수준 설정

  5. 일반적으로 $ \alpha = 0.05 $

  6. CHI 제곱 통계량 계산

  7. 위의 수식을 사용하여 $ \chi^2 $ 값 산출

  8. 자유도 계산 및 임계값 도출

  9. 자유도에 따라 카이제곱 분포표에서 임계값을 찾거나, p-값 계산

  10. 결정

  11. 계산된 $ \chi^2 $ 값이 임계값보다 크거나 p-값이 유의수준보다 작으면 귀무가설 기각

사용 조건과 제한 사항

CHI 제곱 검정은 유용하지만, 다음과 같은 조건을 충족해야 신뢰할 수 있는 결과를 얻을 수 있습니다:

  • 랜덤 표본: 데이터는 무작위 표본에서 추출되어야 함
  • 독립성: 각 관찰은 독립적이어야 함
  • 기대 빈도 조건:
  • 대부분의 셀에서 기대 빈도가 5 이상이어야 함
  • 5 미만의 기대 빈도를 가진 셀이 전체의 20%를 초과하면 결과가 왜곡될 수 있음
  • 이 경우 피셔의 정확 검정(Fisher's Exact Test) 사용을 고려

실용적 예시 (R 코드 예시)

# 예: 성별과 음료 선호의 독립성 검정
data <- matrix(c(30, 10, 20, 25), nrow = 2,
               dimnames = list(성별 = c("남성", "여성"),
                               음료 = c("커피", "차")))

chisq.test(data)

출력 예:

Pearson's Chi-squared test with Yates' continuity correction

X-squared = 6.63, df = 1, p-value = 0.01

p-값이 0.05보다 작으므로, 성별과 음료 선호는 독립이 아니며 통계적으로 유의한 관계가 있다고 결론지을 수 있습니다.


관련 개념 및 대체 방법

  • 피셔의 정확 검정(Fisher's Exact Test): 표본 크기가 작거나 기대 빈도가 낮을 때 사용
  • G 검정(G-test): 로그우도 기반의 대안 검정
  • 연속성 보정(Yates' correction): 2×2 표에서 과도한 유의성 방지를 위해 사용

참고 자료


관련 문서

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?